
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一
OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一OpenAI刚刚发布SWE-Lancer编码基准测试,直接让AI模型挑战真实外包任务!这些任务总价值高达100万美元。有趣的是,测试结果显示,Anthropic的Claude 3.5 Sonnet在「赚钱」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。
OpenAI刚刚发布SWE-Lancer编码基准测试,直接让AI模型挑战真实外包任务!这些任务总价值高达100万美元。有趣的是,测试结果显示,Anthropic的Claude 3.5 Sonnet在「赚钱」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。
国产之光DeepSeek V3竞技场排名新鲜出炉—— 优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。
全网独一份o1 pro架构爆料来了!首创自洽性机制打破推理极限,「草莓训练」系统首次揭秘。更令人震惊的是,OpenAI和Anthropic自留Orion、Claude 3.5超大杯,并不是内部失败了,而是它们成为数据生成的秘密武器。
传闻反转了,Claude 3.5 Opus没有训练失败。 只是Anthropic训练好了,暗中压住不公开。 semianalysis分析师爆料,Claude 3.5超大杯被藏起来,只用于内部数据合成以及强化学习奖励建模。 Claude 3.5 Sonnet就是如此训练而来。
Claude 3.5 Sonnet 应该是目前公认综合能力最好的基础模型。
刚刚,Claude 3.5 Haiku允许通过API访问,同一天,xAI也官宣Grok API也正式开启公测。
这个星期,AI 大模型突然迈上了一个新台阶,竟开始具备操作计算机的能力!
这两天,Claude 3.5 Sonnet升级版刷爆了朋友圈,满屏都是:它能像人一样操作电脑。 大语言模型(Large Language Model,LLM)能够像人一样操作电脑这件事,看起来蛮炸裂的,但在AI Agent圈子里早已经见多不怪了。
新版Claude 3.5可以像人一样使用计算机,可把咱人类给兴奋坏了! 毕竟,这意味着新竞赛的开始:AI不再只盯着对话和生成能力,更强调执行和操作。
来了!Claude 发布新版本的 3.5 Sonnet 和新发布的 3.5 Haiku,能力都有大进步。